امروزه با دسترسی روزافزون به پایگاههای دادۀ اداری و حجم بالای دادههای ثبتشده در سازمانها، روشهای سنتی گردآوری و تحلیل دادهها به دلیل بار پاسخگویی بالا کارایی لازم را ندارند. بر این اساس، گذار از روشهای گردآوری سنتی به روشهای مدرن گردآوری و تحلیل دادهها با رویکرد آمارهای ثبتیمبنا بیش از پیش مورد توجه تحلیلگران دادهها قرار گرفته است. در روشهای ثبتیمبنا، ایجاد یک پایگاه دادۀ یکپارچه از طریق اتصال رکوردهای پایگاههای دادۀ دستگاههای مختلف اهمیت ویژهای دارد. بسیاری از الگوریتمهای اتصال رکوردی بر پایهٔ مدل فلگی و سانتر توسعه یافته است. یکی از نقصهای مدل فلگی-سانتر این است که به درون اطلاعات موجود در مقادیر متغیرها نفوذ نمیکند و مقادیر متغیرهای رشتهای (رایج بودن یا نادر بودن مقدار ویژگی موردنظر) در آن اهمیت ندارد. در این مقاله به معرفی روشی پرداخته میشود که بتواند با اصلاح وزنهای جورسازی مدل فلگی-سانتر، این تفاوتها را در مقادیر یک متغیر رشتهای در مدل فلگی-سانتر القا کند. از طرف دیگر، مدلی که فلگی و سانتر پیشنهاد دادهاند و روشی که برای تعدیل وزنهای جورسازی در اتصال فراوانیمبنای رکوردها معرفی میشود، بر اساس فرض استقلال شرطی بنا شدهاند. در برخی مسائل اتصال رکوردی، در تطابق و عدم تطابق میان متغیرهای مشترک مورد استفاده در جورسازی، فرض استقلال شرطی برقرار نیست. یک راهکار مورد استفاده در چنین حالتی، استفاده از مدل لگ-خطی است که امکان وجود اثرات متقابل میان متغیرهای جورسازی در مدل را فراهم میکند.
در این مقاله به دو روش تعمیم مدل فلگی ‐سانتر، یکی با رویکرد اصلاح وزنهای جورسازی و دیگری با رویکرد مدل لگخطی با حضور اثرات متقابل میان متغیرهای اتصالدهنده در شرایطی که فرض استقلال شرطی برقرار نباشد، پرداخته میشود. روشهای معرفی شده برای اتصال رکوردی در این مقاله، روی مجموعهدادههای نیروی کار مرکز آمار ایران با استفاده از نرمافزار R پیادهسازی شدهاند.